Model Selection

Screenshot parsing pre-training

# Screenshot parsing pre-training

Pix2struct Screen2words Base

Pix2Struct is a vision-language understanding model optimized for generating functional description captions from UI interface screenshots

Transformers Supports Multiple Languages

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase